Im obszerniejsza jest oferta informacji, tym trudniej jest u¿ytkownikowi dotrzeæ do potrzebnych danych. Sprawdza siê to równie¿ w przypadku Internetu, a przede wszystkim WWW, który zdobywa coraz wiêksz¹ popularnoœæ jako Ÿród³o informacji.
Podczas szukania informacji w ksi¹¿ce wykorzystuje siê zawarty w niej spis treœci. Przy odrobinie szczêœcia znajduje siê indeks pojêæ, który znacznie u³atwia wyszukiwanie. Ale ju¿ szukanie w bibliotece jest znacznie trudniejsze, mimo i¿ biblioteki z regu³y s¹ odpowiednio uporz¹dkowane i zarz¹dzane przez kompetentne osoby. Nie dziwi wiêc, ¿e szperanie w WWW - który mo¿e byæ przecie¿ porównany do ogólnoœwiatowej biblioteki, mimo i¿ bez centralnego zarz¹dzania - nie jest proste. Sprawê komplikuje fakt, ¿e poprzez WWW mo¿na mieæ dostêp do innych Ÿróde³ informacji, jak serwery FTP, bazy danych WAIS lub Gopher, w których równie¿ mo¿na przeprowadzaæ polowania na wiedzê.
Niniejszy CHIP SPECIAL ma pokazaæ, ¿e nie trzeba porzucaæ swojego ulubionego browsera WWW, aby równie¿ w innych systemach informacyjnych przeprowadziæ skuteczne wyszukiwanie.
Do przegl¹dania World Wide Web mo¿na wykorzystaæ browsery WWW. W niniejszym zeszycie znajduj¹ siê odnoœniki do skomentowanych i u³o¿onych wed³ug tematyki browserów, których lista znajduje siê na koñcu zeszytu.
Szczególnie pomocne przy przeszukiwaniu (tzw. surfowaniu po) WWW mo¿e byæ wykorzystanie tzw. hotlists, zawieraj¹cych odsy³acze do interesuj¹cych stron. Z tego powodu nale¿y zwracaæ uwagê na to, czy u¿ywany browser oferuje tak¹ opcjê. Sk¹din¹d jest to obecnie powszechne i zawiera siê w funkcjonalnych mo¿liwoœciach niemal ka¿dego wspó³czesnego systemu wyszukiwawczego.
Drug¹ mo¿liwoœci¹ dotarcia do informacji jest u¿ycie list b¹dŸ drzew posortowanych tematycznie (lista Ÿród³owa na koñcu zeszytu). Listy lub drzewa mog¹ byæ tworzone i aktualizowane „od rêki". Pozwalaj¹ one dotrzeæ do ka¿dej informacji, która w jakikolwiek sposób daje siê sklasyfikowaæ tematycznie. Ten sposób wyszukiwania mo¿na porównaæ do przegl¹dania treœci ksi¹¿ki przy pomocy spisu treœci lub indeksu pojêæ. Oto niektóre spoœród dobrze posortowanych drzew i indeksów:
Szczegó³y dotycz¹ce wyszukiwania zorientowanego tematycznie, jak równie¿ przedstawionego „wyszukiwania maszynowego" zostan¹ bli¿ej omówione w nastêpnym rozdziale wraz z odpowiednim przyk³adem. Przy wyszukiwaniu maszynowym stosuje siê odpowiednie formularze dostarczane do dyspozycji u¿ytkownika sieci. Po wype³nieniu formularza rozpoczyna siê wyszukiwanie - do akcji wkracza tzw. „paj¹k" (spider), przegl¹daj¹cy „pajêczynê" (web) w poszukiwaniu informacji. Naturalnie przy pojedynczych zapytaniach nie jest przeszukiwana ca³a sieæ, a tylko te serwery z bazami danych, które znajduj¹ siê w pobli¿u miejsca uruchomienia procedury wyszukiwawczej.
Istnieje wiele ró¿norodnych strategii wyszukiwania. Niektóre „paj¹ki" prowadz¹ wyszukiwanie tylko w obrêbie tytu³ów stron WWW, inne szperaj¹ równie¿ w tekstach przy³¹czonych do dokumentów za pomoc¹ odsy³aczy, jeszcze inne prowadz¹ nawet przeszukiwanie pe³notekstowe. Ró¿nice wystêpuj¹ równie¿ przy zg³oszeniach „trafieñ", czyli odpowiedzi spe³niaj¹cych kryteria wyszukiwawcze. Bardziej rozbudowane systemy prowadz¹ ranking - klasyfikacjê punktow¹, dziêki której mo¿na oceniæ, jak bardzo dana strona WWW odpowiada kryteriom wyszukiwawczym (z regu³y wy¿sza liczba punktów oznacza odpowiedŸ lepiej spe³niaj¹c¹ postawione kryteria). Formu³owanie kryteriów wyszukiwawczych jest tak¿e zró¿nicowane. Niektóre „paj¹ki" umo¿liwiaj¹ wprowadzenie tylko jednego ci¹gu znaków jako kryterium wyszukiwania, inne s¹ zaœ w stanie po³¹czyæ logicznie kilka ³añcuchów znakowych, aby np. sformu³owaæ zapytanie postaci:
znajdŸ wszystkie teksty, które zawieraj¹ s³owa „lato" i „œnieg"
Przy pewnej dozie szczêœcia mo¿na znaleŸæ tekst, zapewne w jêzyku polskim (wszak s³owa, po których nale¿a³o szukaæ, by³y w jêzyku polskim!), zawieraj¹cy
zarówno s³owo „lato", jak i „œnieg". Tym sposobem mo¿na spróbowaæ dowiedzieæ siê, którego lata pada³ œnieg. Oto lista znanych „paj¹ków":
Niektóre „paj¹ki" nie tylko umo¿liwiaj¹ bezpoœrednie przeszukiwanie stron WWW, lecz zapewniaj¹ równie¿ interfejsy wyszukiwawcze do innych Ÿróde³ informacji, jak serwery FTP, bazy danych WAIS lub system Gopher. Zostan¹ one przedstawione na przyk³adzie w nastêpnym rozdziale.
Aby przybli¿yæ obcowanie z wy¿ej wymienionymi mo¿liwoœciami wyszukiwania informacji, rozpatrzymy przyk³ad, który z pewnoœci¹ bêdzie zrozumia³y dla ka¿dego i podobny do codziennych potrzeb.
Za³ó¿my, ¿e nale¿y napisaæ artyku³ lub wypracowanie na okreœlony temat. W tym konkretnym przypadku bêdzie to „Nasz Uk³ad S³oneczny".
Krok po kroku poka¿emy, w jaki sposób przy pomocy ró¿norodnych narzêdzi i mo¿liwoœci sieciowych mo¿na dotrzeæ do informacji na zadany temat.
W naszym przyk³adzie nale¿y znaleŸæ informacje dotycz¹ce okreœlonego obszaru tematycznego, konkretnie zaœ uk³adu s³onecznego. Nasuwa siê wiêc koniecznoœæ przeszukiwania list tematycznych. Listy te s¹ strukturami hipertekstowymi zawieraj¹cymi posortowane drzewa lub indeksy.
Jedn¹ ze szczególnie czêsto u¿ywanych, dobrze uporz¹dkowanych list jest The Whole Internet Catalog , czyli krótko mówi¹c WIC. U¿yjemy w przyk³adzie tego katalogu, choæ do podobnych wyników doprowadz¹ równie¿ inne listy. Je¿eli wyszukiwanie w którejœ z list nie przyniesie wyników, nale¿y skorzystaæ z innej - wybór jest bardzo du¿y.
Na stronie g³ównej WIC-a znajduj¹ siê opcje: „New Sites" (najciekawsze z nowych stron), „Top 50" (piêædziesi¹t najczêœciej odwiedzanych - za pomoc¹ WIC-a - miejsc w Internecie), „About WIC Select", „Submit a New Site", „All Entries" (zawiera wszystkie pozycje katalogu bez sortowania tematycznego) oraz „All Subjects". Ta ostatnia pozycja jest szczególnie interesuj¹ca, gdy¿ zawiera drzewo rekordów uporz¹dkowane tematycznie:
Skoro szukamy informacji na temat naszego uk³adu s³onecznego, wybieramy najbardziej odpowiadaj¹c¹ kategoriê, czyli „Astronomy" („Astronomia").
Odnoœniki tematyczne zwi¹zane z astronomi¹
Jako ¿e dzia³amy w WIC-u i jego strukturze drzewiastej, musimy wspinaæ siê po kolejnych ga³êziach drzewa, aby otrzymaæ wynik bardziej sprecyzowany. W tym przypadku jesteœmy u celu ju¿ na drugim poziomie, gdy¿ pojawia siê zapis „The Nine Planets" („Dziewiêæ planet"), który sprawia wra¿enie doskonale odpowiadaj¹cego naszym potrzebom. Po klikniêciu mysz¹ przycisku „GO!" mo¿emy wejœæ na kolejny poziom i przejrzeæ zawarte tam informacje.
Zanim jednak¿e wykorzysta siê dane zawarte w Internecie, nale¿y ka¿dorazowo zapoznaæ siê z uwagami dotycz¹cymi praw autorskich (Copyrights). Sposób wykorzystania informacji zawartych w „The Nine Planets" jest jednoznacznie wyjaœniony w za³¹czniku i nale¿y go przestrzegaæ zarówno z punktu widzenia prawa, jak i przyzwoitoœci.
These pages are my intellectual property. You are free to copy and to redistribute unmodified copies for non-commercial purposes without restriction from me (but see below). Any other use should be consistent with normal copyright law and your conscience.
See my home page if you need to contact me.
The images in "The Nine Planets" are almost all from NASA. Here is a statement from NASA (applying to some but perhaps not all of its images):
No copyright is asserted for these images. If a recognizable person appears in an image, use for commercial purposes may infringe a right of privacy or publicity. These images may not be used to state or imply the endorsement by NASA or by any NASA employee of a comercial product, process or service, or used in any other manner that might mislead. Accordingly, it is requested that if these images are used in advertising and other commercial promotion, layout and copy be submitted to NASA prior to release.
National Aeronautics and Space Administration, Houston TX 77058
Here's another NASA statement:
All of the images presented on NSSDC's Photo Gallery are in the public domain. As such, they may be used for any purpose. NSSDC does ask, however, that you acknowledge NSSDC as the supplier of the data. In addition, where the source of the image (by project or as a specific person) is credited in the text, you should also acknowledge that, too.
Here is the copyright statement for the HST images:
All of the HST images available via WWW and ftp may be used without restriction as long as credit information accompanies the picture. Credit usually includes the principal scientist responsible for the data, NASA and/or ESA, the European Space Agency. Specific credit information may be found in the captions accompanying the images as plain text files. The captions are available via links from the Web pages as well as separate files in the gif directory on the ftp server.
It is always OK to use my text and NASA's images for classroom projects.
Fragment informacji o prawach autorskich, za³¹czonej do „The Nine Planets"
Je¿eli opisane w poprzednim rozdziale wyszukiwanie tematyczne oka¿e siê nieskuteczne lub znalezione informacje oka¿¹ siê niewystarczaj¹ce, wówczas mo¿na u¿yæ „paj¹ka".
Jednym z najnowoczeœniejszych wspó³czesnych „paj¹ków" jest Lycos. Powsta³ on na Carnegie Mellon University. Jest tak chêtnie wykorzystywany, ¿e przy wyszukiwaniach odpowiedzi na przesy³ane przez niego pytania pracuje 15 stacji roboczych Sun oraz serwer NT.
Lycos zarz¹dza dwiema bazami danych, przy pomocy których mo¿e udzielaæ odpowiedzi na pytania. Mniejsza z nich zawiera ok. 600 000 zapisów bêd¹cych kompletnymi stronami. Druga baza posiada z kolei prawie dwadzieœcia milionów adresów WWW.
Istotn¹ zalet¹ Lycosa, zw³aszcza bior¹c pod uwagê ogromne zasoby udostêpnianych danych, jest dobrze dopracowany system szacowania informacji. Przy jego pomocy, na podstawie pytania wyszukiwawczego zestawiany jest krótki opis znalezionych stron wraz z ich internetowymi adresami. Na tej podstawie u¿ytkownik mo¿e wyrobiæ sobie szybko pogl¹d, czy znalezione do tej pory strony odpowiadaj¹ jego oczekiwaniom. Sposób realizacji tej procedury rozpatrzymy na przyk³adzie.
Zanim sformu³uje siê pytanie wyszukiwawcze, nale¿y dok³adnie sprecyzowaæ, czego siê oczekuje od systemu, a tak¿e wybraæ mo¿liwie efektywne s³owa kluczowe. Zdecydowana wiêkszoœæ dokumentów hipertekstowych powsta³a w jêzyku angielskim, zatem zaleca siê, aby pytanie zawiera³o wy³¹cznie angielskie s³owa. Przy szukaniu informacji o uk³adzie s³onecznym wskazane jest u¿ycie s³owa „Solarsystem" („Uk³ad S³oneczny") albo nawet obu s³ów: „Solar" i „System". Je¿eli chcemy uzyskaæ dokumenty zawieraj¹ce grafikê, a jeszcze chêtniej dokumenty z animacjami i dŸwiêkiem lub tekstem mówionym, wówczas pytanie wyszukiwawcze rozwijamy o s³owo „multimedia". Na koniec, jako ¿e nie chcemy wielkiej kolekcji dokumentów, lecz raczej przekrojowe wprowadzenie do tematu uk³adu s³onecznego, ograniczamy wyszukiwanie poprzez s³owo „tour" („podró¿").
Formularz wyszukiwawczy Lycosa
Nale¿y zawsze d¹¿yæ do tego, aby zapytanie by³o sformu³owane mo¿liwie precyzyjnie. W przeciwnym wypadku otrzymuje siê bardzo du¿¹ liczbê odpowiedzi spe³niaj¹cych formalne kryteria wyszukiwawcze (odpowiedzi relewantne), z których tylko niewielki u³amek jest u¿yteczny dla odbiorcy (odpowiedzi pertynentne). Poprzez wprowadzenie kolejnego ograniczenia wyszukiwania - Min-terms - Lycos bêdzie sprawdza³, ile spoœród podanych s³ów wyszukiwawczych musi jednoczeœnie wyst¹piæ w przeszukiwanym tekœcie. W naszym przyk³adzie powinny wyst¹piæ wszystkie cztery s³owa. Je¿eli wyszukiwanie nie przyniesie rezultatów, wówczas mo¿na z³agodziæ kryteria wyszukiwania, np. poprzez zmniejszenie wartoœci Min-terms. Najczêœciej jednak „trafieñ" (hits) bêdzie tak du¿o, ¿e interesuj¹ce bêd¹ tylko niektóre z nich. Stosuje siê wówczas zmienn¹ Max-hits, która ogranicza liczbê odpowiedzi. Przyspieszenie przesy³ania danych uzyskuje siê poprzez zaznaczenie opcji „Terse output" („Zwiêz³e wyjœcie"), dziêki czemu wyniki bêd¹ pokazywane w skróconej postaci.
W naszym wyszukiwaniu osi¹gnêliœmy sukces. Wskazuje na to nastêpuj¹cy fragment wyniku dzia³ania Lycosa:
Load average: 3.04: Lycos June 21, 1995 catalog, 4379256 unique URLs (see Lycos News)
Found 99026 documents matching at least one search term.
Printing only the first 15 of 53 documents with at least scores of 0.010 and matching 4 search terms.
Matching words (number of documents): solar (5215), system (67044), multimedia (16280), tour (14167)
#1.[score 1.0000, 4 of 4 terms, adj 1.0] www.tc.cornell.edu/Edu/MathSciGateway/astronomy.html
last fetched: 18-Jun-95
file date: 05-May-95
bytes: 4815
links: 18
title: CTC Math/Science Gateway: Astronomy
outline: The Solar System Comet Shoemaker-Levy Collision with Jupiter (July, 1994) Of General Interest
keys: solar tour
excerpt: CTC Math/Science Gateway: Astronomy Cornell Theory Center Math and Science Gateway Astronomy The Solar System * Welcome to the Planets -
Information about each planet as well as about the explorers that have visited them. This is a guided tour of the solar system's planets, asteroids and comets with
images, facts and figures. From NASA's Jet Propulsion Laboratory. * Views of the Solar System - An educational tour of the solar system. It contains images
and information about the Sun, planets, moons, asteroids, comets and meteoroids found within the solar system. This is more comprehensive than the Welcome to
the Planets Tour. * The Nine Planets: A Multimedia Tour of the Solar System - The Nine
#2.[score 0.9797, 4 of 4 terms, adj 1.0] www.bgytf.hu/planet/nineplanets.html
last fetched: 12-Apr-95
bytes: 7844
links: 107
title: The Nine Planets
outline: The Nine Planets A Multimedia Tour of the Solar System Table of Contents
keys: solar
excerpt: The Nine Planets We shall not cease from exploration, and the end of all our exploring will be to arrive where we started and know the place for the first
time. -- T. S. Eliot The Nine Planets A Multimedia Tour of the Solar System by Bill Arnett This is an essay about our solar system with text, pictures, sounds
and an occasional movie. Each of the planets and major moons in our solar system are briefly described and illustrated with pictures from NASA spacecraft. With
a few clicks, you can see images that only a few decades ago could only be dreamed of. Our knowledge of our solar system is extensive. But it is far from
complete. Some of the worlds have never even been photographed up close.
Wynik wyszukiwania pod Lycosem
Pierwszy dokument, z najwiêksz¹ iloœci¹ trafieñ, jest de facto list¹ zawieraj¹c¹ odnoœniki do innych dokumentów. Ale ju¿ drugi dokument, jak wynika z jego streszczenia, jest tym, czego szukaliœmy - multimedialn¹ podró¿¹ poprzez nasz Uk³ad S³oneczny.
Uda³o nam siê znaleŸæ multimediln¹ podró¿ przez System S³oneczny (znajduje siê ona na za³¹czonym do zeszytu CD-ROM-ie). Poznaliœmy odpowiedzi na wiele spoœród postawionych na wstêpie pytañ, tym niemniej niektóre ¿yczenia nie dadz¹ siê zrealizowaæ bezpoœrednio w WWW.
Niestety, stwierdzamy, ¿e „The Nine Planets" zawiera pliki dŸwiêkowe, do odtworzenia których nie mamy odpowiednich narzêdzi. Trzeba zatem znaleŸæ program, który bêdzie móg³ odegraæ pod Windows pliki w formacie *.au. Do takich poszukiwañ najlepiej nadaj¹ siê serwery FTP. I wcale nie trzeba przy tym opuszczaæ WWW.
Doskona³e mo¿liwoœci wyszukiwawcze posiada SHASE (Shareware Search Engine). Jest to formularz wyszukiwawczy dla VSL (Virtual Shareware Library, www.fagg.uni-lj.si/SHASE/)/), który w chwili obecnej zawiera 21 du¿ych archiwów FTP wraz z ich oficjalnymi mirrorami (CICA, Simtel, Microsoft i wiele innych). Oferuje on bardzo szybkie i wydajne wyszukiwanie software’u.
Wybór archiwum, w którym bêdzie prowadzone wyszukiwanie
Swoimi umiejêtnoœciami SHASE zdecydowanie przewy¿sza Archiego, gdy¿ miêdzy innymi pozwala formu³owaæ kompleksowe zapytania, równie¿ dotycz¹ce opisu plików.
Oprócz wyszukiwania po nazwach plików oraz ograniczania daty utworzenia pliku (co jest tak¿e dostêpne w Archiem), SHASE zawiera po¿yteczn¹ opcjê wyszukiwania w opisach plików. Jest to szczególnie istotne, gdy¿ wiêkszoœæ interfejsów Archiego nie potrafi tego dokonaæ.
W naszym przypadku szukamy wyst¹pieñ ci¹gów znaków „au" i „play" w opisach plików. Celem wyszukiwania jest znalezienie programu umo¿liwiaj¹cego odegranie plików zapisanych w formacie dŸwiêkowym „au", wywodz¹cym siê ze œrodowiska dla Amigi. Poniewa¿ ci¹g „au" wystêpuje równie¿ w bardzo popularnym, ale zupe³nie nam nieprzydatnym s³owie „audio", musimy ten przypadek wyeliminowaæ z poszukiwañ (patrz poprzedni rysunek). Rysunek poni¿ej przedstawia wynik wyszukiwania
Wyszukiwanie okaza³o siê bardzo owocne, gdy¿ ju¿ pierwszy z odnalezionych plików z indeksu CICA jest tym, którego potrzebujemy.
Pewn¹ szczególn¹ cech¹ wersji SHASE z Chemnitz (www1.tu-chemnitz.de/cgi-bin/shase) jest to, i¿ mo¿na natychmiast przegl¹daæ zawartoœæ archiwów. W tym celu wystarczy po prostu klikn¹æ „View". Oryginalny formularz SHASE niestety nie posiada takiej opcji.
Niemal ka¿dy plik z archiwum mo¿na obejrzeæ lub skopiowaæ. Je¿eli po obejrzeniu pliku readme czytelnik dojdzie do wniosku, ¿e rozpatrywany program odpowiada funkcjonalnie jego potrzebom i zdecyduje siê za³adowaæ ca³¹ zawartoœæ archiwum, wówczas przechodzi do odpowiedniej strony i klika nazwê pliku.
Prezentacja dostêpnych mirrorów
Odpowiedni plik nie bêdzie bezpoœrednio ³adowany do komputera odbiorcy, lecz pojawi siê wybór mirrorów, przy czym mirrory z odpowiedniej dziedziny znajduj¹ siê na najwy¿szych pozycjach. Jeœli wbrew oczekiwaniom wybrany plik nie bêdzie obs³u¿ony przez dostêpne mirrory (np. je¿eli plik jest nowy, oferowany jedynie z oryginalnego serwera FTP), wówczas nale¿y próbowaæ wykorzystaæ inne mirrory, równie¿ dostêpne na oryginalnym serwerze.
Wypada powiedzieæ, ¿e opisany sposób wyszukiwania informacji jest bardzo powszechny w codziennej praktyce. Im wiêcej danych odnajdujemy podczas pierwszej próby, tym ³atwiej odszukujemy odsy³acze do kolejnych Ÿróde³. Nierzadko wyszukanie potrzebnych stron WWW jest kwesti¹ szczêœcia
Aby pomóc szczêœciu, za³o¿ono specjalne, weso³e strony WWW, których celem jest przypadkowe poprowadzenie do innych stron
Jednym z przyk³adów jest URouLette uniwersytetu w Kansas (www.ukans.edu/uroulette.html). Mo¿na st¹d dotrzeæ do przypadkowo wybranej, innej strony sieci. Czêsto zdarza siê, ¿e uzyskane adresy nie s¹ interesuj¹ce i ca³¹ zabawê zaczyna siê od nowa.
Mimo i¿ rosyjska ruletka wydaje siê niedorzeczna i niepotrzebna, po pewnym czasie odbiera siê j¹ ca³kiem inaczej. Podczas surfowania po WWW tak czêsto wkracza siê na wci¹¿ te same œcie¿ki, ¿e przypadkowo wybrana strona mo¿e zaproponowaæ ca³kowicie now¹, odkrywcz¹ i pe³n¹ wra¿eñ podró¿ przez sieæ.